POMDP与MDP的区别?部分可观测如何理解? |
您所在的位置:网站首页 › pomdp belief › POMDP与MDP的区别?部分可观测如何理解? |
举个例子,有A,B 两种状态。Agent一开始可能在两种状态中的一种,并且有两种可能的action, 要么stay, 要么move。 在A的时候utility0 为0, B的时候utility为1。从A出发只有0.9的概率会达到B,0.1的概率出发然后回到A,从B出发同理。 MDP: 已知agent一开始是在状态A, Q(A, stay) = Uo + [0.9 * 0 + 0.1 * 1] = 0 + 0.1 = 0.1 Q(A, move) = Uo + [0.1 * 0 + 0.9 * 1] = 0 + 0.9 = 0.9 Umax = Max( Q(A, stay), Q(A, move) ) = move 已知agent一开始是在状态B, Q(B, stay) = Uo + [0.9 * 1 + 0.1 * 0] = 0.9 + 1 = 1.9 Q(B, move) = Uo + [0.1 * 1 + 0.9 * 0] = 0.1 + 1 = 1.1 Umax = Max( Q(B, stay), Q(B, move) ) = stay POMD: 由于信息不完全,可能一开始agent并不知道自己在A还是在B,于是需要给分别可能在A,或者B的可能性赋予权重, 权重:假设有0.4的可能一开始在A,0.6的可能性一开始在B。 U (stay) = 0.4 * 0.1 + 0.6 * 1.9 = xxx U (move) = 0.4 * 0.9 + 0.6 * 1.1 = xxx |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |